In this paper, a semantic communication framework for image transmission is developed. In the investigated framework, a set of servers cooperatively transmit images to a set of users utilizing semantic communication techniques. To evaluate the performance of studied semantic communication system, a multimodal metric is proposed to measure the correlation between the extracted semantic information and the original image. To meet the ISS requirement of each user, each server must jointly determine the semantic information to be transmitted and the resource blocks (RBs) used for semantic information transmission. We formulate this problem as an optimization problem aiming to minimize each server's transmission latency while reaching the ISS requirement. To solve this problem, a value decomposition based entropy-maximized multi-agent reinforcement learning (RL) is proposed, which enables servers to coordinate for training and execute RB allocation in a distributed manner to approach to a globally optimal performance with less training iterations. Compared to traditional multi-agent RL, the proposed RL improves the valuable action exploration of servers and the probability of finding a globally optimal RB allocation policy based on local observation. Simulation results show that the proposed algorithm can reduce the transmission delay by up to 16.1% compared to traditional multi-agent RL.
translated by 谷歌翻译
Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
本文提出了一种新方法,该方法融合了混响场中的声学测量和低临界性惯性测量单元(IMU)运动报告,以同时定位和映射(SLAM)。与仅使用声学数据进行到达方向(DOA)估计的现有研究不同,源与传感器的距离是通过直接到依次的能量比(DRR)计算的,并用作新约束以消除非线性噪声从运动报告。应用粒子过滤器估计临界距离,这是将源距离与DRR关联的关键。使用密钥帧方法来消除源位置估计向机器人的偏差。拟议的DOA-DRR声学大满贯(D-D大满贯)设计用于三维运动,适合大多数机器人。该方法是第一个在现实世界中仅包含声学数据和IMU测量值的现实世界室内场景数据集上验证的声学大满贯算法。与以前的方法相比,D-D SLAM在定位机器人和从现实世界室内数据集中构建源地图方面具有可接受的性能。平均位置精度为0.48 m,而源位置误差在2.8 s内收敛到小于0.25 m。这些结果证明了D-D SLAM在现实世界室内场景中的有效性,这可能在环境有雾(即不适合光或激光辐照的环境)之后特别有用。
translated by 谷歌翻译
尽管变形金刚及其变体构象体在语音识别方面表现出了有希望的表现,但参数化的属性在训练和推理过程中导致了很大的记忆成本。一些作品使用跨层重量分享来减少模型的参数。但是,不可避免的能力损失会损害模型性能。为了解决这个问题,本文提出了通过共享稀疏门控专家的参数效率构象异构体。具体而言,我们使用稀疏门控的专家(MOE)来扩展构型块的容量而不增加计算。然后,共享分组构象块的参数,以减少参数的数量。接下来,为了确保具有不同级别适应表示的灵活性的共享块,我们会单独设计MOE路由器和标准化。此外,我们使用知识蒸馏来进一步提高性能。实验结果表明,与全参数模型相比,所提出的模型用编码器的1/3来实现竞争性能。
translated by 谷歌翻译
最近基于对比的3D动作表示学习取得了长足的进步。但是,严格的正/负约束尚未放松,并且使用非自我阳性的使用尚待探索。在本文中,为无监督的骨骼3D动作表示学习提出了对比度阳性挖掘(CPM)框架。 CPM在上下文队列中识别非自我阳性以提高学习。具体而言,采用和培训了暹罗编码器,以匹配增强实例的相似性分布,以参考上下文队列中的所有实例。通过确定队列中的非自我积极实例,提出了一种积极增强的学习策略,以利用采矿阳性的知识来增强学习潜在空间的稳健性,以抵抗阶级内部和阶层间多样性。实验结果表明,所提出的CPM具有有效性,并且在挑战性的NTU和PKU-MMD数据集上胜过现有的最新无监督方法。
translated by 谷歌翻译
深度学习已成为火星探索的强大工具。火星地形细分是一项重要的火星愿景任务,它是漫游者自动计划和安全驾驶的基础。但是,现有的基于深度学习的地形细分方法遇到了两个问题:一个是缺乏足够的详细和高信心注释,另一个是模型过度依赖于注释的培训数据。在本文中,我们从联合数据和方法设计的角度解决了这两个问题。我们首先提出了一个新的火星地形细分数据集,该数据集包含6K高分辨率图像,并根据置信度稀疏注释,以确保标签的高质量。然后从这些稀疏的数据中学习,我们为火星地形细分的基于表示的学习框架,包括一个自我监督的学习阶段(用于预训练)和半监督的学习阶段(用于微调)。具体而言,对于自我监督的学习,我们设计了一个基于掩盖图像建模(MIM)概念的多任务机制,以强调图像的纹理信息。对于半监督的学习,由于我们的数据集很少注释,因此我们鼓励该模型通过在线生成和利用伪标签来挖掘每个图像中未标记的区域的信息。我们将数据集和方法命名为MARS(S $^{5} $ MARS)的自我监督和半监督分割。实验结果表明,我们的方法可以超越最先进的方法,并通过很大的边距提高地形分割性能。
translated by 谷歌翻译
过度参数化的神经网络在复杂数据上具有很大的代表能力,更重要的是产生足够平滑的输出,这对于它们的概括和稳健性至关重要。大多数现有函数近似理论表明,使用足够多的参数,神经网络可以很好地近似于功能值的某些类别的函数。然而,神经网络本身可能是高度平滑的。为了弥合这一差距,我们以卷积残留网络(Rescresnets)为例,并证明大型响应不仅可以在功能值方面近似目标函数,而且还可以表现出足够的一阶平滑度。此外,我们将理论扩展到在低维歧管上支持的近似功能。我们的理论部分证明了在实践中使用深层网络的好处。提供了关于对抗性鲁棒图像分类的数值实验,以支持我们的理论。
translated by 谷歌翻译
量子计算机是下一代设备,有望执行超出古典计算机范围的计算。实现这一目标的主要方法是通过量子机学习,尤其是量子生成学习。由于量子力学的固有概率性质,因此可以合理地假设量子生成学习模型(QGLM)可能会超过其经典对应物。因此,QGLM正在从量子物理和计算机科学社区中受到越来越多的关注,在这些QGLM中,可以在近期量子机上有效实施各种QGLM,并提出了潜在的计算优势。在本文中,我们从机器学习的角度回顾了QGLM的当前进度。特别是,我们解释了这些QGLM,涵盖了量子电路出生的机器,量子生成的对抗网络,量子玻尔兹曼机器和量子自动编码器,作为经典生成学习模型的量子扩展。在这种情况下,我们探讨了它们的内在关系及其根本差异。我们进一步总结了QGLM在常规机器学习任务和量子物理学中的潜在应用。最后,我们讨论了QGLM的挑战和进一步研究指示。
translated by 谷歌翻译
统一的流和非流式的双通(U2)用于语音识别的端到端模型在流传输能力,准确性,实时因素(RTF)和延迟方面表现出很大的性能。在本文中,我们呈现U2 ++,U2的增强版本,进一步提高了准确性。 U2 ++的核心思想是在训练中同时使用标签序列的前向和向后信息来学习更丰富的信息,并在解码时结合前向和后向预测以提供更准确的识别结果。我们还提出了一种名为SPECSUB的新数据增强方法,以帮助U2 ++模型更准确和强大。我们的实验表明,与U2相比,U2 ++在训练中显示了更快的收敛,更好地鲁棒性对解码方法,以及U2上的一致5 \%-8 \%字错误率降低增益。在Aishell-1的实验中,我们通过u2 ++实现了一个4.63 \%的字符错误率(cer),其中没有流媒体设置和5.05 \%,具有320ms延迟的流设置。据我们所知,5.05 \%是Aishell-1测试集上的最佳发布的流媒体结果。
translated by 谷歌翻译
Training a Neural Radiance Field (NeRF) without pre-computed camera poses is challenging. Recent advances in this direction demonstrate the possibility of jointly optimising a NeRF and camera poses in forward-facing scenes. However, these methods still face difficulties during dramatic camera movement. We tackle this challenging problem by incorporating undistorted monocular depth priors. These priors are generated by correcting scale and shift parameters during training, with which we are then able to constrain the relative poses between consecutive frames. This constraint is achieved using our proposed novel loss functions. Experiments on real-world indoor and outdoor scenes show that our method can handle challenging camera trajectories and outperforms existing methods in terms of novel view rendering quality and pose estimation accuracy.
translated by 谷歌翻译